빅데이터분석기사 24년 8회

빅데이터분석기사


1. 다음 중 빅데이터의 특징 5V에 대한 설명으로 옳은 것은?
  •  Variety : 데이터의 양이 많다
  •  Volume : 데이터가 다양하다
  •  Velocity : 데이터가 실시간으로 변한다
  •  Veracity : 데이터의 가치가 무궁무진하다

2. 다음 중 빅데이터 분석 방법론의 데이터 분석 단계에서 수행하는 작업으로 옳지 않은 것은?
  •  평가용 데이터 준비
  •  데이터 모델링
  •  데이터 확인 및 추출
  •  모델링 적용 및 운영방안

3. 다음 보기에서 설명하고 있는 내용으로 가장 적절한 것은?
수집한 데이터를 저장, 처리하고 분석할 수 있도록 포괄적으로 지원한다.
  •  빅데이터 마이닝
  •  빅데이터 플랫폼
  •  빅데이터 처리기술
  •  빅데이터 탐색기술

4. 다음 중 가역 데이터와 불가역 데이터에 대한 설명으로 옳지 않은 것은?
  •  가역 데이터는 원본 데이터가 변경되는 경우 변경사항을 반영할 수 있다
  •  불가역 데이터는 생산된 데이터의 원본으로 환원이 불가능한 데이터이다
  •  가역 데이터는 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터이다
  •  불가역 데이터는 원본 데이터의 내용이 변경되는 경우 변경사항을 반영할 수 있다

5. 다음 중 정량적 데이터와 정성적 데이터에 대한 설명으로 옳지 않은 것은?
  •  정량적 데이터는 양적 데이터이다
  •  정성적 데이터는 질적 데이터이다
  •  정량적 데이터 중 계수 데이터는 범주형 데이터로 변환 가능하다
  •  정성적 데이터 중 변수 데이터는 연속형 데이터로 변환 가능하다

6. 다음 중 데이터 변환에 대한 예시로 옳지 않은 것은?
  •  YYYY년 MM월 DD일 -> YYYY/MM/DD
  •  10~30세는 청년, 40~60세는 중년 등으로 범주화
  •  1, 2, 3학년 값을 batch로 변환하여 데이터 분활
  •  키 수치를 평균 0, 표준변차 1로 표준화

7. 다음 중 개인정보보호 관련 법률에 대한 설명으로 옳지 않은 것은?
  •  개인정보 파기 시에 사유는 고지할 의무가 없다
  •  익명정보를 생성할 때 당사자의 동의를 구해야 한다
  •  개인정보보호위원회는 개인정보보호 업무를 독립적으로 처리하기 위한 기관이다
  •  데이터3법으로 개인정보보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률이 있다

8. 다음 중 보기에서 설명하고 있는 비식별화 기법과 세부기술로 옳은 것은?
사용자에 대한 정보를 뒤섞어 정보의 손실 없이 특정 개인에 대한 추측을 할 수 없도록 한다
  •  총계처리 - 재배열
  •  데이터 마스킹 - 잡음 추가
  •  가명처리 - 휴리스틱 익명화
  •  데이터 범주화 - 랜덤 라운딩

9. 다음 중 비식별화 기법에 대한 설명으로 옳지 않은 것은?
  •  데이터 마스킹 수준이 높으면 데이터를 식별, 예측하기 쉬워진다
  •  비식별 조치 방법은 여러 자지 기법을 단독 또는 복합적으로 활용한다.
  •  가명처리를 할 때 값을 대체 시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의 해야 한다.
  •  총계처리 시 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 같다

10. 다음 중 내부 데이터와 외부 데이터에 대한 설명으로 옳지 않은 것은?
  •  외부 데이터는 수집 시 법류이나 제도상 제약이 없는지 검토한다
  •  내부 데이터는 개인정보일 경우 비식별 조치방안을 함께 고려한다
  •  외부 데이터는 보안을 크게 신경쓰지 않고 자유롭게 사용해도 된다
  •  내부 데이터는 필요 데이터의 관리 권한이 다른 부서에 있는 경우 협의를 통해 공유 가능 여부를 확인한다

11. 다음 중 데이터 웨어하우스의 특징으로 옳지 않은 것은?
  •  통합성(Integration)
  •  휘발성(Volatilization)
  •  시계열성(Time-variant)
  •  주제지향성(Subject-orientation)

12. 다음 중 분산 저장 방식으로 적절하지 않은 것은?
  •  GFS
  •  Ceph
  •  HDFS
  •  HBase

13. 다음 중 Key-Value 데이터베이스에 대한 설명으로 옳지 않은 것은?
  •  단순한 데이터 모델에 기반을 두기 때문에 복잡한 쿼리의 수행이 가능하다
  •  단순한 데이터 모델에 기반을 두기 때문에 쿼리의 질의 응답시간이 빠르다
  •  단순한 데이터 모델에 기반을 두기 때문에 관계형 데이터베이스보다 확장성이 뛰어나다
  •  데이터를 키(key)와 그에 해당하는 값( value)의 쌍으로 저장하는 데이터 모델에 기반을 둔다

14. 다음 중 Cassandra, MongoDB를 포함하는 반정형, 비정형 데이터 저장소로 옳은 것은?
  •  DFS
  •  NoSQL
  •  RDBMS
  •  In-memory DB

15. 다음 중 비정형 데이터(Unstructured Data)로 보기 어려운 것은?
  •  음성 데이터
  •  메시지 데이터
  •  이미지 데이터
  •  거래(transaction) 데이터

16. 다음 중 유의미한 변수를 선정하는 작업을 수행하는 단계로 옳은 것은?
  •  분석 기획
  •  데이터 준비
  •  데이터 분석
  •  시스템 구현

17. 다음 중 하향식 문제 탐색 과정에 대한 설명으로 옳지 않은 것은?
  •  문제 탐색은 개인이 생각흔 문제를 간단하게 나열한다
  •  타당성 검토는 경제적, 기술적 타당성을 분석하는 단계이다
  •  문제 정의는 식별된 비즈니스 문제를 데이터 문제로 변환한다
  •  해결방안 탐색은 과제 정의 후 어떻게 해결할 것인지 방안을 탐색한다

18. 다음 중 표준화에 대한 설명으로 옳은 것은?
  •  두개의 샘플을 하나로 통합하는 작업이다
  •  표준화가 진행된 값은 단위가 존재하지 않는다
  •  노이즈를 제거하여 추세를 부드럽게 하는 작업이다
  •  데이터의 일반적인 특성이나 패턴을 추출하는 작업이다

19. 다음 중 텍스트 마이닝에 대한 설명으로 옳지 않은 것은?
  •  사용하지 않거나 분석에 필요 없는 불용어를 제거해야 한다
  •  Tokening은 예측해야 할 정보를 하나의 특정 기본 단위로 자르는 작업이다
  •  Stemming는 동일한 뜻을 가진 형태가 다른 단어들을 같은 형태로 바꾸는 작업이다
  •  POS tagging은 분류나 군집화 등 빅데이터에 숨겨진 의미 있는 정보를 발견하는데 사용하기도 한다

20. 다음 중 지도한습 모델 선정 시 고려요소로 옳지 않은 것은?
  •  데이터
  •  분석 목적
  •  자기상관성
  •  변수의 중요도

21. 다음 중 서열척도 변수들 간의 상관관계를 측정할 때 사용하는 값은?
  •  피어슨 상관계수
  •  스피어만 상관계수
  •  Phi 계수
  •  자기 상관계수

22. 다음 중 파생변수에 대한 설명으로 옳지 않은 것은?
  •  시간 수집 시점에 따른 파생변수를 만들 수 있다
  •  연속형 변수는 구간을 추려서 특정 조건의 파생변수를 만들 수 있다
  •  독립변수와 종속변수의 교호작용을 이용하여 생성할 수 있다
  •  좋은 파생변수는 모델의 예측력을 크게 향상시킬 수 있다

23. 표본의 수가 많을수록 정규분포에 가까워지는 것을 무엇이라고 하는가?
  •  중심극한정리
  •  주성분 분석
  •  통계적 가설검정
  •  시계열 분석

24. 보기에서 주성분 분석(PCA)에 대한 설명으로 옳은 것을 모두 고르시오
(가) 변수들은 정규분포 관계가 있다
(나) 차원축소는 변수들 간에 관계가 없어도 가능하다
(다) 분산이 큰 변수의 방향을 확인한다
  •  가
  •  다
  •  가, 다
  •  가, 나, 다

25. A나라와 B나라가 투표 후 투표율에 대한 표본조사를 실시하였다. A나라에서는 100명을 조사하였는데 71명이 투표했다고 응답하였고, B나라는 200명을 조사하였는데 134명이 투표하였다고 응답하였다. A, B나라의 투표할 확률을 각각 P1, P2라고 할때 P1-P2의 추정값은?
  •  0.71
  •  0.67
  •  0.04
  •  0.46

26. 어느 시험에서 학생의 점수가 각각 60, 70, 80점일때 표본분산을 구하시오
  •  66.7
  •  70
  •  100
  •  200

27. 다음 중 기술통계량이 아닌 것은?
  •  평균
  •  최빈값
  •  분산
  •  이상값

28. 다음 중 데이터가 얼마나 편중되어 있는지 확인할 수 있는 척도를 고르시오
  •  분산
  •  표준편차
  •  왜도
  •  첨도

29. 모델의 편향과 분산 관계에 대한 설명으로 옳은 것은?
  •  모델이 복잡하면 편향이 커지고, 분산이 작아진다
  •  모델이 단순하면 편향이 작아지고, 분산이 커진다
  •  편향이 낮고 분산도 낮으면 좋은 모델이다
  •  편향과 분산은 상충관계(trade-off)에 있지 않다

30. 데이터를 정규분포에 가깝게 변환하기 위한 통계적 기법으로 음수데이터에는 불가능하여 양수데이터만 가능한 방법은?
  •  Min-Max
  •  Z Score
  •  Binning
  •  Box-Cox

31. 다음 설명 중 옳지 않은 것은
  •  n의 개수(표본 크기)와 상관없이 표본의 평균은 모집단의 평균과 같다
  •  표본 통계량의 기대값이 모집단 모수와 같다면 이를 불편추정량이라고 한다
  •  표본의 수가 커지면 표본의 오차가 줄어들고 결과의 신뢰성이 높아진다
  •  표본의 수가 늘어나면 표본의 평균을 이용한 신뢰구간의 추정 정확도가 높아진다

32. 다음 중 차원축소를 통해 할 수 없는 것을 고르시오
  •  특징 추출
  •  설명력 증가
  •  노이즈 제거
  •  데이터 정제

33. 암 발생률과 소득의 상관관계를 다른 변수들을 제외하고 분석하고 싶을때 사용하는 기법은?
  •  군집분석
  •  편상관계수
  •  F분포
  •  카이제곱

34. 다음 중 다변량분산분석(MANOVA)에 대한 설명으로 옳은 것은?
  •  독립변수 1개 이상, 종속변수 1개이다.
  •  독립변수 여러 개, 종속변수 1개이다
  •  독립변수 1개 이상, 종속변수 여러 개이다.
  •  독립변수 1개, 종속변수 여러 개이다

35. 다음 중 결측값 대치에 대한 설명으로 옳지 않은 것은?
  •  평균으로 대치하는 경우 통계량의 표준오차가 과소추정될 수 있다
  •  단순확률대치법은 확률추출에 의해 전체 데이터 중 무작위 대치하는 방법이다
  •  최근접대치법은 결측치를 해당 데이터와 가장 유사한 값으로 대치하는 방법이다
  •  자기회귀로 결측치를 대치하면 상관성이 낮아지고 분산이 커진다

36. 다음 중 다중공선성과 VIF(Variance Inflation Factor)에 대한 설명으로 옳은 것은?
  •  다중공선성은 회귀계수의 분산을 증가시킨다
  •  다중회귀에서 독립변수간에 선형회귀가 있으면 다중공선성이 있다고 한다
  •  VIF 분산팽창지수가 5 미만이면 독립변수 간에 상관성이 존재한다
  •  회귀분석을 적용하기 위해서는 다중송선성을 만족해야 한다

37. 다음 중 샘플링에 사용되지 않는 기법은?
  •  Metropolis-Hastings Algorithm
  •  Perfect Sampling
  •  EM Algorithm
  •  Rejection Sampling

38. 다음 빈칸에 공통으로 들어갈 용어로 적절한 것은?
시퀀스투시퀀스(seq2seq)에서 인코더를 통해 (          )가 만들어지고 디코더가 (       )를 받아 출력시퀀스가 된다
  •  고유벡터
  •  컨텍스트벡터
  •  공벡터
  •  기저벡터

39. 다음 중 경사하강법에 대한 설명으로 옳은 것은?
  •  확률적 경사하강법은 전체 데이터 중 일부를 랜덤추출하여 사용하는 방법이다
  •  모멘텀은 관성을 이용해 지역최소를 극복하고 전역최소를 찾아가는 방법이다
  •  Adaptive Gradient(AdaGrad)는 이전 기울기에 따라 속도가 달라진다
  •  Adam은 확률적 경사하강법과 모멘텀 방식의 장점을 합친 경사하강법이다

40. 매개변수와 초매개변수에 대한 설명으로 옳지 않은 것은?
  •  매개변수는 학습하며 갱신된다
  •  매개변수는 경사하강법으로 추정할 수 있다
  •  초매개변수는 학습이 진행되어도 바뀌지 않는다
  •  은닉층의 수와 학습률은 초매개변수이다

41. 다음 중 서포트벡터머신(SVM)에 대한 설명으로 옳지 않은 것은?
  •  과접합되는 경우가 적다
  •  학습속도가 느리다
  •  초매개변수의 최적화는 필요 없다
  •  커널 함수 여러 개가 존재할 수 있다

42. 다음 보기에서 의사결정나무에 대한 설명으로 옳은 것을 모두 고르시오
(가) 의사결정나무는 설명력이 명확하다
(나) 의사결정나무는 동질성이 커지는 방향으로 분기한다
(다) 정규성 가정이 필요하다
(라) 교호작용 효과 해석이 어렵다
  •  (가), (라)
  •  (가), (나)
  •  (나), (다)
  •  (나), (라)

43. 부스팅(Boosting)에 대한 설명으로 옳지 않은 것은?
  •  여러 개의 약한 학습기를 순차적으로 학습시키고 예측한다
  •  GBM은 가중치 업데이트에 경사하강법을 이용한다
  •  XGBoost는 GBM을 개선한 방식이지만 GBM보다 속도가 늦다
  •  LightGBM은 기존 트리 방식과 다르게 leaf중심으로 분기한다

44. 인공신경망에서 마지막 은닉노드가 2개, 출력노드가 1개, 편향이 0.2일때 출력값을 계산하시오. (은닉노드의 값은 각각 0.2, 0.1이고 가중치는 각각 0.4, 0.5이다)
  •  0.33
  •  0.44
  •  0.55
  •  0.64

45. 앙상블 모델에 대한 설명으로 옳지 않은 것은?
  •  앙상블 모델은 여러 개의 모델을 조합하여 하나의 최종 결과를 도출한다
  •  대표적인 앙상블 기법들로 배깅, 부스팅, 스태킹이 있다
  •  앙상블 모델로 분석하는 것은 단일 모델로 분석하는 것보다 항상 좋다
  •  여러 모델들을 결합하여, 과적합을 방지할 수 있다

46. 다음 중 나이브 베이즈에 대한 설명으로 옳지 않은 것은?
  •  각각이 독립인 것을 가정한다
  •  베이즈 룰을 사용해서 종속변수의 확률을 계산한다
  •  나이브 베이즈는 사전확률과 사후확률을 토대로 우도를 계산한다
  •  별도의 학습과정을 거치지 않는다

47. 비모수검정에 대한 설명으로 옳지 않은 것을 고르시오
  •  정규성 가정이 필요하지 않다
  •  이상치에 대한 민감도가 모수검정보다 덜하다
  •  모수검정보다 검정력이 높다
  •  직관적으로 이해하기 쉽다

48. 결정계수에 대한 설명으로 옳은 것은?
  •  1은 종속변수의 변동이 독립변수에 의해 설명되지 않음을 의미한다
  •  0은 종속변수의 변동이 모두 독립변수에 의해 설명됨을 의미한다
  •  결정계수 값의 범위는 0~1이다
  •  회귀모형에 독립변수를 더 많이 추가하면 항상 결정계수 값이 높아진다

49. 다음의 앙상블 기법과 관련된 설명들 중 옳지 않은 것은?
  •  Voting - 투표를 통해 값을 결정한다
  •  Batch - 샘플 집합으로서 주로 배깅에 활용된다
  •  Bagging - 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계한다
  •  Stacking - 동일한 샘플로 다양한 유형의 모델을 학습한다

50. 과적합 방지 규제항 적용 시 가중치 제곱합을 최소화하는 제약을 주는 기법은?
  •  Lasso
  •  Ridge
  •  Elastic Net
  •  Logistic Regression

51. 다음 중 과적합 방지 방안으로 옳지 않은 것은?
  •  가중치 규제
  •  드롭아웃
  •  배치 정규화
  •  매개변수 증가

52. 선형 회귀와 로지스틱 회귀에 대한 설명으로 옳지 않은 것은?
  •  종속변수가 범주형인 경우 로지스틱 회귀를 사용한다
  •  선형, 로지스틱 회귀 모두 잔차 정규성을 가정한다
  •  선형회귀 계수를 최소제곱량(LSE)으로 추정하면 불편추정량의 특성을 가진다
  •  선형, 로지스틱 회귀 모두 MLE로 계수추정이 가능하다

53. 모델의 배치에 관한 설명으로 옳지 않은 것은?
  •  배치 크기가 작으면 훈련속도가 빨라진다
  •  배치 크기는 훈련속도에 영향을 주지만 성능에 영향이 없다
  •  배치 크기가 너무 크면 메모리 문제가 발생한다
  •  배치 크기가 너무 작으면 노이즈가 생기며 모델의 학습에 악영향을 준다

54. 불균형 데이터에 대한 설명으로 옳지 않은 것은?
  •  데이터 불균형이 있는 경우 최적화된 모델의 학습이 어려울 수 있다
  •  불균형 데이터 집합에서는 정확도보다는 정밀도를 평가지표로 설정해야 한다
  •  학습 시 클래스의 개수보다는 클래스 간의 샘플 수 차이에 영향을 받는다
  •  소수의 클래스는 언더샘플링을 적용해 해결한다

55. 결측값을 대치하는 방법 중 회귀대치법에 대한 설명으로 맞지 않은 것은?
  •  대체할 결측값을 예측하기 위해 회귀분석을 사용한다
  •  데이터의 구조와 패턴을 반영하여 결측값을 대체할 수 있다
  •  독립변수와 종속변수 간의 관계가 약할 경우에도 적용이 가능하다
  •  결측값이 없는 다른 변수를 이용하여 결측값이 있는 변수를 예측한다

56. ROC 곡선에 대한 설명으로 옳지 않은 것은?
  •  FPR 값에 따른 TPR 값의 그래프이다
  •  FPR이 작아도 TPR이 클 수 있다
  •  무작위의 경우 TPR과 FPR은 같은 곳으로 수렴한다
  •  AUC 값이 작을수록 좋은 모델이다
위키해설
클릭하면 보입니다.
  ROC 곡선
57. 척도와 예시가 맞지 않게 연결된 것은?
  •  비율 척도 - 나이
  •  명목 척도 - 성별
  •  서열척도 - 매출액
  •  등간 척도 - 온도

58. 실제 Positive인 대상 중에서 Positive로 정확히 예측한 확률을 뜻하는 것은?
  •  재현율(Recall)
  •  정확도(Accuracy)
  •  정밀도(Precision)
  •  특이도(Specificity)

59. 바이너리(binary)변수에 대한 설명으로 맞지 않는 것은?
  •  두 가지 값만 가질 수 있느 변수이다
  •  성별(남,여), 출석상태(출석,미출석)등이 바이너리 변수이다
  •  로지스틱 회귀와 같은 분류 모델에서 사용된다
  •  원-핫 인코딩은 연속형 데이터를 이진 형식으로 변환한다

60. k-fold 교차검증에 대한 설명으로 옳지 않은 것은?
  •  k-1개 데이터셋은 학습용으로 사용하고, 1개 데이터셋은 검증용으로 사용한다
  •  폴드(fold)의 크기가 작을수록 모델의 성능이 떨어진다
  •  학습과 검증을 k번 반복해서 수행한다
  •  k개로 나누어진 데이터셋은 각각 한 번식만 검증용으로 사용된다

61. (가)와 (나)를 표현하기에 적합한 인포그래픽으로 가장 잘 연결된 것은?
(가) 지역별 코로나 발생률
(나) 코로나 발병 잉후부터 월별 코로나 발생률
  •  (가) 지도 인포그래픽, (나) 타임라인 인포그래픽
  •  (가) 목록 인포그래픽, (나) 타임라인 인포그래픽
  •  (가) 지도 인포그래픽, (나) 프로세스 인포그래픽
  •  (가) 비교 인포그래픽, (나) 통계 인포그래픽

62. 다음 중 교차 검증에 대한 설명으로 옳지 않은 것은?
  •  시계열 데이터에서 학습데이터와 검증데이터는 같은 시간대에 있어야 한다
  •  학습 데이터에서의 편균제곱오차 값은 대개 검증 데이터에서의 평균제곱오차 값보다 작다
  •  k-폴드 교차검증은 k번의 학습과 검증을 진행한다
  •  교차검증은 모델의 훈련시간이 증가한다

63. 국회의원 선거에서 지역 면적이 아니라 지역구에 당선된 국회의원 수에 따라 시각화 할 때 적합한 시각화 도구는?
  •  카토그램
  •  단계구분도
  •  픽토그램
  •  하이퍼볼릭 트리

64. 모자이크 플롯에 대한 설명으로 맞지 않은 것은?
  •  변수에 속한 값의 분포를 시각적으로 표현한다
  •  두 개 이상의 범주형 데이터의 상관관계를 나타낸다
  •  열의 너비는 가로 축에 표시된 관측치 수에 비례한다
  •  히스토그램 안에 히스토그램이 있는 형식이다

65. 다음 중 기초통계량과 그래프로 확인할 수 없는 것을 고르시오
  •  결측치
  •  이상치
  •  통계적 유의성
  •  데이터 분포

66. 데이터 시각화의 순서로 옳은 것은?
  •  데이터 휙득 -> 데이터 구조화 -> 데이터마이닝 -> 시각화모델 선텍 -> 시각화 표현
  •  데이터 휙득 -> 데이터 구조화 -> 시각화모델 선택 -> 시각화 표현 -> 데이터 마이닝
  •  데이터 구조화 -> 데이터 휙득 -> 시각화모델 선택 -> 데이터 마이닝 -> 시각화 표현
  •  데이터 구조화 -> 데이터 휙득 -> 데이터 마이닝 -> 시각화모델 선택 -> 시각화 표현

67. 지역별 매출과 수익을 시각화 하기에 가장 적절한 방법으로 짝지어진 것은?
  •  매출: 버블차트, 수익: 코로플레스맵
  •  매출: 코로플레스맵, 수익: 버블차트
  •  매출: 카토그램, 수익: 버블차트
  •  매출: 등치선도, 수익: 카토그램

68. 분석 결과 활용 계획에 대한 설명으로 옳지 않은 것은?
  •  내,외부 교육 훈련 방안도 포함한다
  •  분석 결과 활용 계획은 분석 모형 리모델링 후 수립한다
  •  분석 결과 활용 효과 측정을 위한 성과지표도 마련되어야 한다
  •  분석 결과에 대한 지속적인 모니터링이 필요하다

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr